Extraction de dates saillantes pour la construction de chronologies thématiques
نویسندگان
چکیده
We present an approach for detecting salient (important) dates in texts in order to automatically build event timelines from a search query (e.g. the name of an event or person, etc.). This work was carried out on a corpus of newswire texts in English provided by the Agence France Presse (AFP). In order to extract salient dates that warrant inclusion in an event timeline, we first recognize and normalize temporal expressions in texts and then use a machine-learning approach to extract salient dates that relate to a particular topic. For the time being, we have focused only on extracting the dates and not the events to which they are related. MOTS-CLÉS : dates saillantes, événements, chronologies.
منابع مشابه
An Interface for Validating and Evaluating Thematic Timelines (Une interface pour la validation et l'évaluation de chronologies thématiques) [in French]
Actuellement, les journalistes de l’Agence France Presse (AFP) construisent manuellement des chronologies événementielles textuelles dans le but de contextualiser des événements médiatiques. Elles sont sous forme d’une liste de dates (généralement entre 10 et 20) associées à un texte décrivant l’événement ayant eu lieu à cette date. Nous avons développé un système capable de construire ce genre...
متن کاملPFC: Un outil d'aide à la découverte des contenus des documents et à la création de dossiers
Cet article traite de la construction automatique et dynamique de dossiers consolidés. La construction de dossiers utilise plusieurs étapes : recherche des documents les plus significatifs à partir d’une requête par mots-clés, classification dynamique du résultat de la requête en utilisant plusieurs classifieurs aux comportements différentiés, combinaison des résultats de ces classifieurs pour ...
متن کاملApport des données thématiques dans les systèmes de recommandation : hybridation et démarrage à froid
Résumé. Des travaux récents (Pilaszy et al., 2009) suggèrent que les métadonnées sont quasiment inutiles pour les systèmes de recommandation, y compris en situation de cold-start : les données de logs de notation sont beaucoup plus informatives. Nous étudions, sur une base de référence de logs d'usages pour la recommandation automatique de DVD (Netflix), les performances de systèmes de recomman...
متن کاملDéfi EGC 2016 : Analyse par Motifs Fréquents et Topic Modeling
Résumé. Dans le domaine de l’analyse de textes, l’extraction de motifs est une technique très populaire pour mettre en évidence des relations fréquentes entre les mots. De même, les techniques de topic modeling ont largement fait leurs preuves lorsqu’il s’agit de classer automatiquement des ensembles de textes partageant des thématiques similaires. Ainsi, ce papier a pour ambition de montrer l’...
متن کاملSous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne
RÉSUMÉ. Ce papier aborde la question de la classification non supervisée de documents, dans un contexte de veille sur le Web (corpus de taille moyenne). Notre but est d’assister le veilleur dans deux tâches : 1. dégager des thématiques à partir du corpus ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques. Nous proposons une approche linguistique, reposant sur les plus proches voi...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- TAL
دوره 53 شماره
صفحات -
تاریخ انتشار 2012